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利用 N-gram 和 语义 分 析 的 维吾尔 语文 本 相似 性 检测 方法 
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摘 要 : 目前 自然 语言 文本 相似 度 估 计 大 多 是 针对 英语 等 一 些 大 类 语言 ， 为 了 实现 维吾尔 语文 本 的 相似 性 检测 ， 提 出 
一 种 基于 N-gram 和 语义 分 析 的 相似 性 检测 方法 。 首先 , 根据 维吾尔 语 单词 特征 ,采用 了 N-gram 统计 模型 来 获得 词语 ， 
并 根据 词语 在 文本 中 的 出 现 频 率 来 构建 词语 -文本 关系 矩 阵 ， 作 为 文本 模型 。 然 后 ， 采 用 了 潜在 语义 分 析 (LSA) 来 获得 
词语 及 其 文本 之 间 的 隐藏 关联 ， 以 此 解决 维吾尔 语词 义 模糊 的 问题 ， 并 获得 准确 的 相似 度 。 在 包 人 金 重组 和 同义词 替换 
的 旭 窃 文本 集 上 进行 实验 ， 结 果 表明 该 方法 能 够 准确 有 效 地 检测 出 相似 性 。 
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Abstract: At present, most of the researches on the similarity of natural language texts are aimed at some major languages such 
as English. In order to detect similarities between Uighur texts, this paper proposed a similarity detection method based on N- 
gram and semantic analysis. Firstly, it used N-gram statistical model to obtain the words based on Uyghur word features, and 
constructed the word-text relation matrix according to the appearance frequency of the words in the text. Then, it adopted a 


latent semantic analysis (LSA) to obtain the hidden association between the words and their texts, so as to solve the problem of 


vague semantic meaning in Uyghur language and obtain exact similarity. Experiments on plagiarized text sets containing 


reorganization and synonym replacement show that this method can detect the similarity accurately and effectively. 
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尔 语 进行 书写 的 学 术 论 文 申 。 对 维 语文 档 进行 相似 度 计算 和 到 

窃 检 测 对 维 语文 化 的 健康 发 展 具有 重要 意义 。 本 文 是 针对 维 吾 
通过 网 络 获取 信息 十 分 容易 ， 这 使 学 术 玛 穷 成 为 一 种 简 尔 语文 本 相似 性 的 检测 ， 由 于 维 寿 尔 语词 语 可 能 有 多 种 词 形 变 
操作 。 存在 以 下 几 种 类 型 的 文档 旨 窃 器: 9 直接 从 发 表 的 文本 上 化 、 同 义 词 和 不 同 含义 。 比 如 ， 每 个 词 区 
复制 短语 或 段落 ， 而 不 给 出 引用 出 处 和 作者 ; b) 将 已 发 表 内 容 。 缀 可 以 以 连续 的 方式 附加 到 单词 上 。 单 个 字符 串 可 能 包含 动词 
进行 语句 和 结构 修改 并 进行 使 用 。 为 了 保护 作者 的 版 权 ， 对 待 变形、 介词 变形 、 代 词 变形 和 连词 变形 等 。 因 此 ， 维 吾 尔 语文 
发 表 文 档 进行 副 锚 检测 是 一 种 重要 手段 中。 一 些 相似 度 估计 和 ”本 单词 的 语义 比较 模糊 ， 给 璋 窃 检 测 造 成 了 一 定 的 难度 四。 
虽 窃 检测 方法 是 与 语言 无 关 的 ， 可 以 适用 于 多 种 语言 ， 而 另 一 于 维 寿 尔 语文 档 的 信息 化 处 理发 展 较 晚 ， 目 前 在 维吾尔 
些 则 是 对 语言 比较 敏感 。 语 言 无 关 的 方法 是 基于 文本 特征 的 估 ”语文 档 相 似 性 等 方面 的 研究 单位 主要 为 新 疆 大 学 。 由 于 维吾尔 
计 ， 这 些 特征 不 是 特定 自然 语言 固有 的 ， 如 单个 字符 的 数量 和  ” 语 的 复杂 语言 结构 ， 一 些 常用 的 相似 性 度量 都 不 能 很 好 地 应 用 
平均 句子 长 度 值 等 和 。 而 语言 敏感 的 方法 是 基于 单一 语言 特定 器 。 目 前 很 少 有 学 者 提出 相关 方法 ， 其 中 文献 [7] 提 出 一 种 维 寿 
属性 的 ， 比 语言 无 关 的 方法 具有 更 高 的 针对 性 和 准确 性 。 尔 语句 子 相 似 度 计算 方法 (MUSM), 其 采用 词 形 特征 , 通过 多 策 


近 些 年 ， 随 着 新 疆 经 济 和 教育 的 发 展 ， 产 生 了 很 多 以 维 吾 “” 略 精 选 算法 来 计算 两 个 维吾尔 语句 子 的 相似 度 。 然 而 ， 其 只 能 
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录用 稿 张 营 ， 等 : 利用 N-gram 和 语义 分 析 的 维吾尔 语文 本 相似 性 检测 方法 
在 句子 级 进行 检测 ， 且 没有 考虑 到 同义词 的 替换 问题 。 文 献 [3] 
首先 引入 和 分 析 了 维吾尔 语文 本 语义 相似 性 度量 ， 通 过 上 下 文 
来 确定 语义 相似 度 ， 可 以 应 对 同义词 的 问题 ， 但 是 其 精确 性 较 人 
Ee 词语 提取 
(n-gram 词语 提取 及 排序 ) 

本 文 提出 一 种 基于 N-gram 和 语义 分 析 的 维吾尔 语文 本 相 I 
似 性 检测 方法 。 其 主要 创新 点 为 : 四 根据 维吾尔 语 单词 特征 , 采 a 
用 了 N-gram 统计 模型 来 获得 词 干 ， 并 根据 单词 频率 来 构建 文 1 
本 模型 ，b) 为 了 解决 维吾尔 语 单词 词义 模糊 的 问题 ， 采 用 了 洪 (亲信 分 角 、 引 语 勾 分 析 
在 语义 分 析 (latent semantic analysis，LSA) 来 获得 词语 及 其 文本 


原创 文本 


之 间 的 隐藏 关联 ， 获 得 相似 度 。 实 验 结果 表明 ， 提 出 的 方法 能 
够 准确 有 效 地 检测 出 包含 重组 和 同义词 蔡 换 的 旭 穷 文本 。 
ee 图 1 提出 的 文本 相似 度 分 析 方 法 的 框架 
0 提出 的 方法 主要 由 以 下 几 个 部 分 组 成 ， 包 括 文本 预 处 理 、 
1.1 维吾尔 语 特征 词语 提取 、 文 本 建 模 和 相似 性 分 析 。 其 中 ， 预 处 理 阶段 包括 文 
维吾尔 语 是 以 阿拉 伯 字 母 为 基础 的 文字 ， 具 有 高 度 的 黏着 归 一 化 标记 、 无 用 词 删除 等 操作 。 词 语 提取 阶段 主要 包括 利 
性 。 维 寿 尔 字母 共有 32 个 , 字母 的 形式 具有 和 多样 性 , 通常 包含 N-gram 技术 的 词语 提取 和 排序 。 文 本 建 模 阶 段 包括 文本 的 
4 种 表现 形式 ， 致 使 其 形态 变化 较为 复杂 。 维 吾 尔 语 单词 由 词 。 TF-IDF 和 矩阵 计算 和 词语 匹配 。 相似 度 阶段 包括 奇异 值 分 解 和 洪 


型 斌 
= 


干 和 词缀 组 成 ， 在 同一 词 干 前 后 添加 不 同 的 词缀 可 以 表示 不 同 在 语义 分 析 。 
的 词义 四 。 由 于 这 些 特征 ， 给 维吾尔 语文 本 信息 处 理 造 成 一 定 预 处 理 过 程 中 ， 索 引 模块 逐个 读 取 文 本 ， 为 每 个 语句 生 成 
的 困难 ， 如 特征 维 数 大 no1。 单词 索引 ， 并 将 这 些 索引 传递 给 N-gram 计数 模块 。N-gram 计 
表 1 展示 了 在 词 干 “us” (作者 ) 的 前 后 添加 不 同 词 绥 所 ” 数 模块 将 每 个 文本 生成 的 N-gram 词语 写 入 单独 的 临时 文件 。 
形成 的 词语 及 其 含义 ， 其 中 ， 下 划 线 划 出 的 为 词 级 。 这 些 临时 文件 被 合并 到 一 个 文件 中 ， 并 且 对 N-gram 结构 进行 
1 词 干 %cusar( 作 者 ) 上 添加 词缀 形成 的 词语 排序 , 去 除 重复 计数 。 接 下 来 , 文本 建 模 模块 读 取 排序 的 N-gram 
词语 词义 词语 词义 结构 文件 以 计算 TF-IDF 矩阵 ， 该 矩阵 作为 给 定 文本 集 的 特征 
5 作者 i 作者 的 和 矩阵。 然后 ， 相 似 度 估计 模块 通过 特征 矩阵 计算 文本 间 的 余弦 
5 作者 【 攻 ) Wt 作 才 的 (3) 相似 度 ， 作 为 文本 相似 度 的 初步 估计 。 接 着 , 将 TF-IDF 甜 阵 伟 
7 作者 们 “so 像 那 个 作者 递 给 LSA 函数 ,实现 对 文本 集 相似 度 进行 深度 估计 。 主要 数据 


NEE 作者 们 oa 我 的 作者 
村 上 处 理 流程 图 如 图 2 所 示 。 
1.2 基本 框架 
本 文 目标 是 开发 一 种 用 于 自然 语言 文本 的 相似 度 分 析 方法 。 a 
提出 的 方法 可 以 采取 两 种 工作 模式 。 第 一 种 模式 ， 分 析 文 本 2 wa staat 
、 ss ee A A bp 了 各 各 和 Ge 文本 奸 模 ms》 
间 的 相似 度 ， 包 括 可 疑 和 参考 文本 ， 而 第 二 种 模式 包含 一 个 给 于 
入 ， 即 为 基于 文本 的 查询 ， 和 输出 是 文本 或 查询 之 间 的 相似 度 度 LsA 报 和 er | | 
量 | 0 人 词语 
提出 的 方法 中 ， 假 设 原始 文本 和 重 写 文本 都 具有 可 衡量 的 0 
差异 ， 这 些 差异 可 以 通过 统计 和 语言 指示 器 来 获取 。 为 了 克服 
维吾尔 语文 本 中 的 相似 度 / 列 窃 检测 的 困难 , 本 文 主要 采用 了 三 数据 保存 在 内 在 中 从 文件 加 载 数据 从 临时 文件 集中 加 载 数据 


/存储 数据 到 文件 中 /存储 数据 到 临时 文件 集中 


个 技术 手段 。 第 一 个 是 采用 了 自然 语言 处 理 natural language 
processing, NLP ) 技 术 , 而 不 是 依赖 于 传统 的 字符 串 匹 配方 法 。 

第 二 个 是 采用 了 能 够 克服 大 量词 汇 和 句法 挑战 的 文本 建 模 技术 。 
第 三 个 是 使 用 了 潜在 语义 分 析 (LSA) 来 确定 文本 中 包含 的 隐藏 ”2 ”文本 相似 度 估 计 步 又 
关联 。 其 中 ， 为 了 能 从 给 定 的 文本 中 推断 出 潜在 语义 ， 进 行 大 
量 的 统计 计算 ， 本 文 考虑 了 奇异 值 分 解 (singular value 
decomposition，SVD )。 提 出 的 文本 相似 度 分 析 方 法 的 整体 步 又 
如 图 1 所 示 。 


妈 2 ”相似 度 估计 的 数据 处 理 流程 图 


2.1 文本 预 处 理 

文本 预 处 理 是 自然 语言 处 理 任务 成 功 实现 的 重要 前 提 。 首 
先 ， 将 输入 文本 集 转 换 为 纯 文 本 ， 文 本 中 所 有 控制 字符 需 进 行 
过 滤 。 接 下 来 ， 解 析 文 本 以 进行 Pog 标记 ， 在 这 项 工作 中 使 用 


了 维 杏 尔 语 言 模型 。 
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对 于 每 个 文本 ， 标 记 每 个 语句 并 且 
文本 标记 案例 3 所 示 维 吾 


水 真 好 )。 


将 共 


如 图 
通过 调用 


词 的 


形 词 


使 用 


] 相 关 的 词 
能 存在 的 单词 


类 分 析 。 


形态 模糊 性 。 


如 果 
Levenshtein 编辑 距离 用 于 选择 最 可 能 


存储 在 存储 器 中 ， 
尔 文 文本 “cS 3 加 和”( 译 : 


多 态 分 析 器 来 获取 词语 索引 ， 
这 些 分 析 是 用 来 消除 歧义 的 ， 对 每 个 变 
E (PoS) 标签 。 应 用 PoS 标注 可 以 解决 可 
能 的 同类 词 ， 则 


万 然 有 多 个 可 


以 获得 每 


词 与 可 能 的 词 


文献 [12] 采 用 
分 析 器 是 基 


的 形态 


干 之 间 的 编辑 


距离 最 小 。 
:分析 器 以 及 维 吾 

于 语言 学 方法 开 
储 在 词典 中 的 词 干 索引 来 对 


发 的 ， 根 据 所 选择 
变形 词 进行 索引 。 


原始 文本 字符 数组 


的 词 干 ， 其 变形 

在 这 项 工作 中 ， 使 用 
尔 语 词法 查询 。 这 种 形 
的 词 干 ， 使 用 


1|4|7|1 


指针 数组 


索引 时 删除 停止 词 ， 这 是 通过 检查 
来 实现 的 。 如 果 这 些 特征 
代词 ， 则 认为 变形 词 是 停止 词 。 


图 3 文本 标记 人 


1 了 


每 个 变形 i 


的 值 表示 当 


2.2 基于 N-gram 统计 模型 的 词语 提取 


词语 。 


证 


在 文本 分 类 、 检 测 等 应 
本 文采 | 
所 采用 的 统计 方法 为 N-gram 统计 模型 03]。 
词 切 分 ， 即 将 连续 YX 个 字母 作为 一 个 
N-gram 模型 中 ,对 于 文本 中 一 个 特定 字母 1， 
的 概率 与 前 面 N-1 个 字母 的 出 现 


更 适合 维 


吾 尔 语 


元 二 127， 出现 的 概率 为 


P(L) = 


N-gram 模型 


POU bb,,... 


维吾尔 语 ， 


于 其 每 个 单词 


个 gram 单元 。 


情况 相关 。 


N 
,Lv) LIP ee 


司 的 形态 特征 


前 的 词 是 感叹 词 、 介 词 或 


用 中 ， 通 常 需要 首先 提取 文本 中 的 
环境 的 统计 方法 来 提取 词语 。 
在 字母 层 上 进行 单 


设 定 其 出 现 


因此 ， 字 母 序列 


(D) 


bh VN 的 设 定 需要 结合 


都 


体 的 语言 环境 ， 对 于 
多 个 字母 结合 而 成 ， 为 此 较 小 


aXiv 合 作 期 刊 


Chi 
张 营 ， 等 : 利用 N-gram 人 目 似 性 检测 方法 
Ps -jy oi cot, 
词 织 的 两 字母 组 合 坊 G3 eY oi ows 。 


这 两 个 单词 的 相 似 


性 为 


企 


单词 中 所 包 


。 其 中 , 4 表示 第 一 


含 的 且 第 二 个 单词 中 不 存在 的 字母 组 合 的 数量 ， 同样 ，B 第 二 
个 单词 中 所 包含 的 且 第 一 个 单词 中 不 存在 的 字母 组 合 的 数量 ; 
C 表示 两 个 词 中 都 包含 的 相同 字母 组 合 的 数量 。 若 两 个 单词 的 
相似 性 大 于 设 定 的 阔 值 ， 则 将 这 两 个 词 合并 为 一 个 词 干 。 

从 预 处 理 文本 中 提取 指定 长 度 的 N-gram 单词 。 最 近 的 实 
验 表 明 , N-gram 最 合适 的 长 度 在 2~704。 对 于 所 考虑 的 每 个 N- 
gram 大 小 ,词语 提取 的 过 程 必须 是 连续 的 , 例 
三 次 。 为 了 避免 巨大 的 存储 要 
求 ， 从 单个 数据 块 中 提取 N-gram 并 且 一 次 只 将 一 个 N-gram 大 


个 和 


如 ,对 于 unigram、 


bigram 和 trigram 程序 必须 运行 


一 、 六 鄞县 | 了 x 下 
小 保存 在 存储 器 中 ， 以 使 效率 最 大 化 。 N-gram 计数 步骤 的 基 
本 过 程 如 图 4 所 示 。 
Se 
(b) 构建 N-gram 结构 
(排序 N-gran 结 构 
N-gram 大 小 
-四 ~、 G9 
5 下 Renn 
/aaa、\ Baa 
索引 | 阶段 1: 构建 | “、 a 
N-gram 词语 
1 \ 
1 \ N-gram 提取 通过 索引 表示 N-gram 
! 1 
1 
1 
! 阶段 2， 排 序 | 阶段 6， 合 并 
! Bi 所 有 文件 
1 | 3 
1 1 
3 具有 副本 的 临时 具有 单独 N-gram 1 
\ ~ 区 伯 的 临时 文件 Es 
‘ 有 / 按 频 有 。 最 小 频率 
、 阶段 3: | 阶段 4 区 5: 按 频 | 最 
i 上 E 人 人 不 除 汪 本 [es 
、 / 
/ 
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4 N-gram 计数 的 数据 处 理 流程 图 
旨 窃 检测 最 有 效 的 方法 是 将 文本 频率 (DF) 作为 特征 。 
了 减少 文本 中 的 词语 数量 ， 


为 
本 文 根 据 文本 频率 来 确定 一 些 词语 
是 否 重要 。 只 在 一 个 文本 中 存在 的 词语 将 被 立即 删除 ， 因 为 它 
们 不 会 在 任何 其 他 文本 中 被 副 窃 。 此 外 ， 本 文 删除 了 包含 在 超 
过 WU 十 O 个 文本 中 的 一 些 词语 (其 中 是 平均 文本 频率 ，O 是 
平均 文本 频率 的 标准 偏差 )。 换 句 话说 , 即 从 文本 中 删除 了 所 有 
见 的 词语 。 

2.3 构建 文本 模型 

本 文 考虑 了 文本 中 词语 的 出 现 频率 ， 提 出 了 一 种 词语 


文本 


模型 。 


这 些 词语 与 文本 的 关系 以 矩阵 


儿 式 表示 ， 其 中 列表 示 文 


的 N 不 能 有 效 地 代表 单词 属性 ， 而 N 较 大 如 等 于 3 或 4 时 ， 
则 具有 较 强 的 代表 性 。 

本 文 利用 N-gram 统计 模型 提取 词语 过 程 中 ， 为 了 降低 单 
词 维度 和 元 余 度 ， 首 先 根据 维吾尔 语词 典 ， 删 除了 单词 中 最 常 
见 的 词 级 。 然 后 ， 计 算 两 个 词语 的 相似 度 ， 以 此 来 提取 词 干 。 

为 了 展示 N-gram 统计 模型 提取 词语 的 过 程 ， 列 举 了 一 个 
N=2 时 的 例子 ， 即 计算 两 个 词 G 3 (革命 ) 和 aw ( 革 
命 的 ) 的 相似 度 。 

Ds > el e356Y oi ous。 (首先 将 词 分 解 为 


N=2 字母 组 合 


单元 ) 


去 除 常 ) 


词缀 的 两 字母 组 合 坊 cj 6Y cui 0。 


本 ， 行 表 示 词 语 。 考虑 1 
[4, 4,,..., 


Mm 个 向 量 组 成 hnXm 秆 阵 A 


A,, ]， 其 中 向 量 4) 表示 包含 在 文本 j 中 的 词语 。 


每 个 向 


量 Aj; 由 nn 个 元 素 4; 组 成 ，4 表示 文本 j 中 词语 i 出 


频率 的 权 值 ， 如 式 〈2) 所 示 。 等 式 是 本 文 提出 的 用 于 构 
mi A 的 权 值 系数 ， J TF-IDF 加 权 的 修改 版 本 。 
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PF :lo | 
i712 2.max(Ph,): a 7 0 
2 
0 , Others 


其 中 : PF 表示 文本 j 中 词语 i 出现 的 频率 ，DF 表示 出 现 词 


语 的 文本 数量 ，|AM | 是 所 有 文本 的 数量 。 与 TF-IDF 相 比 , 提 
出 的 频率 权重 计算 方法 的 差异 在 于 IDF 的 标准 化 。 本 文 将 其 除 
以 log(|M |)， 
在 文本 了 中 出 现 , 则 Qj = 0 .这 种 加 权 机 制 有 助 于 后 续 采 用 的 
SVD 产生 最 佳 效 果 。 
在 构建 TF-IDF 矩阵 A 期 间 ， 执 行 成 对 的 N-gram 词语 匹 
配 。 这 是 一 个 直接 比较 的 过 程 , 其 整体 复杂 度 为 O ( N ) , 其 中 
NN 是 所 考虑 文本 中 单独 词语 的 数量 。 当 考虑 词汇 和 句法 变化 
时 ,整个 配对 过 程 的 复杂 度 将 增加 到 O { N? ) 。 对 于 这 种 情况 ， 
可 以 使 用 一 些 技术 来 估计 成 对 词语 匹配 得 分 。 在 这 项 工作 中 
本 文 在 这 种 匹配 过 程 中 使 用 了 匹配 平均 和 山子 系数 。 这 是 通过 
以 矩阵 形式 表示 每 对 标记 词语 之 间 的 关系 来 进行 的 ， 以 此 来 计 
算 匹 配 得 分 。 

表示 两 个 词语 成 对 匹配 的 矩阵 “cost* 的 计算 方法 为 : 如 果 第 


鲁 ， 如 果 词 语 i 不 


以 使 Ci E< 0.9,1 > 。 另 一 方 


一 个 词语 内 标记 i 的 索引 等 于 第 二 个 词语 及 其 同义词 、 反 义 词 
中 标记 j 的 索引 ， 则 costy 三 1; 否则，COst; = 0 。 匹 配 得 


分 的 值 表示 所 考虑 的 两 个 词语 是 否 等 同 。 在 这 项 工作 中 ， 
匹配 得 分 等 于 1.00， 则 认为 该 对 词语 是 等 同 的 。 
2.4 潜在 语义 分 析 

这 个 阶段 用 于 推断 出 文本 中 包含 的 词语 之 间 的 潜在 语义 关 
联 。LSA05 是 一 种 智能 文本 比较 技术 ， 使 用 数学 算法 分 析 大 量 
文本 ， 并 揭示 文本 的 底层 语义 信息 ， 使 其 成 为 自然 语言 文本 副 
窃 检 测 的 可 行 技 术 。 

本 文 使 用 一 种 将 对 称 和 矩阵 对 角 化 的 线性 代数 技术 : 奇异 值 
分 解 CSVD)， 将 矩阵 A 分 解 成 三 个 独立 的 矩阵 即 左 奇异 矩阵 
U 、 奇 异 和 矩阵 2 和 右 奇异 矩阵 V_ 。 其 中 , 矩阵 2 仅 包含 对 角 
元 素 ， 称 为 奇异 值 ， 和 矩阵 UU 和 包含 分 解 的 详细 信息 。 

所 有 这 些 矩 阵 都 可 以 在 潜在 空间 大 中 被 分 解 , 以 执行 A 的 
最 佳 上 级 近似 ， 使 得 奇异 值 Ci, GO， 被 替换 为 0， 其 
中 1< 大 和 117。 那么, 矩阵 U 是 丸 X 大 列 正 交 和 矩阵， 其 列 是 词 

语 奇 异 向 量 。2 是 大 x 大 对 角 和 矩阵 ， 不 包含 表示 奇异 值 的 负数 
和 零 。 


如 果 


O20,2…>0,2>0,,=…=0,=0 G3) 
SVD 的 一 个 特征 是 之 对 角 线 上 的 奇异 值 按 降序 排列 ， 满 
足 式 (3)。 和 矩阵 V7 是 一 个 xm 正 交 矩阵 ， 其 行 是 文本 奇异 


口 量 


里 o 


图 5 呈现 了 SVD 分 解 过 程 。 在 分 解 之 后 获得 的 矩阵 V7 是 


DU 
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Chi 
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进一步 处 理 的 基本 构件 ， 因 为 它 包 含 文本 的 独立 轮廓 向 量 。 


sy 
文本 文档 天 个 文件 奇异 值 文本 奇异 向 最 
| 
A [4 | x 


nxk 


mm 。 词语 奇异 向 量 
5 文本 词语 矩阵 的 奇异 值 分 解 


2.5 ”相似 度 估计 


最 后 一 个 阶段 为 计算 成 对 文本 的 相似 度 。 在 我 们 使 用 和 矩阵 
V7 之前， 必须 用 相应 的 奇异 值 重新 缩放 所 有 文本 配置 文件 的 
单个 元 素 ， 如 下 所 示 。 

B=>xV’ (4) 


然后 , 根据 式 (5) 计算 相关 性 。 其 中 , 算 阵 B 的 列 长 度 被 
标准 化 。 所 得 到 的 Sim oy 是 对 称 和 矩阵, 其 中 每 对 文本 由 一 个 得 
分 来 表示 相似 度 。 


simwp=| 8 x|al G5) 


减少 词语 有 助 于 文本 得 到 更 高 的 Sin wyn 得 分 , 其 中 绝 大 多 
数 短语 是 无 意义 的 ， 需 要 被 有 删除。 因此， 本 文 修改 矩阵 Sin sy, 
的 计算 式 ， 如 式 (6) 所 示 。 所 得 到 的 估计 结果 为 对 应 相似 度 测 
量 的 总 体 情 况 。 
sim(R,S)=sim yp (R,S) 
[Na (RIN, CS) (6) 
min(N。 (BR NG 


其 中 ，T 是 相似 度 阔 值 。 
如 果 使 用 与 查询 中 指定 类 型 相对 应 的 加 权 频 率 来 计算 查询 


向 量 9, 则 其 表示 一 个 与 矩阵 AL (与 原始 NXM 词 语文 本 矩阵 
A 相对 应 ) 的 列 相 比较 的 可 疑 文本 。 假 设 向 量 e) 表示 维度 为 
1M 的 第 j 个 规范 向 量 ( 即 ，Mmxm 单位 矩阵 了 的 第 j 列 )。 

因此 , 向 量 人.e; 是 秩 为 大 的 矩阵 A 的 第 列 。 对 于 文本 向 量 


bj 一 .Vinej ， 碍 询 向量 9 和 A 的 可 维 文 本 向 量 (或 列 


> 间 的 夹 角 余弦 值 可 以 由 以 下 公式 表示 : 
DT 
cosOi = ;( 9 ;j=1,2,...,m (7) 
olal, 
可 以 通过 设置 A 中 所 有 除了 kk 个 最 大 值 以 外 的 奇异 值 等 


于 零 , 来 近似 构造 A 的 秩 外 ， 
对 角 线 元 素 的 数量 。 A 与 A 的 近似 误差 为 


A-B|, = aeaT or (8) 


其 中 大 和 思 


且 妨 为 2 中 非 堆 


I4 -A |. = 加 


rank(B)<k 
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张 营 ， 等 : 利用 N-gram 和 语义 分 析 的 维吾尔 语文 本 相似 性 检测 方 


其 中 ，A,=U, 站, V”，U 和 VV 分 别 是 U 和 的 第 大 列 ， 
2 是 xk 对 角 和 矩阵 , 包含 A 中 大 个 最 大 奇异 值 。 换 句 话说， 
原始 词语 文本 矩阵 A 与 A 的 近似 误差 由 截断 的 (或 丢弃 的 ) 
奇异 值 (O41,O442，…, 0, ) 确定 。 通过 A 近似 A 所 反映 的 


|4-4l 


于 舍 计 ， 其 中 ， 实 数 MXN 和 矩阵 
[Al; 


相对 变化 1 


进行 相似 度 估计 。 
3.2 ”参数 选择 

为 了 获得 N-gram 算法 中 最 优 的 N 值 ， 设 定 其 值 在 1 到 6 
之 间 时 ， 测 量 相 似 度 估计 的 精确 度 、 召 回 率 和 F-measure 值 。 
其 中 ， 设 置 副 窃 文本 相似 度 阔 值 7 为 30%， 即 当 两 个 文本 之 间 
的 相似 度 达 到 30% 时 ， 即 为 简 窃 。 

为 了 取得 统计 意义 上 的 比较 结果 ， 在 9 个 文本 上 重复 进行 
了 30 次 实验 ， 平 均 结 果 如 图 8 所 示 。 可 以 看 出 ， 不 同 N 值 下 
算法 的 检测 性 能 不 一 样 。 当 N 值 较 大 和 较 小 时 性 能 都 不 理想 ， 


B=|b, | 


的 Frobenius 矩阵 范 数 〈 出 ;) 被 定义 为 : 


jal = 
i=] j= 


3 ”实验 及 分 析 


3.1 实验 设置 


为 了 估计 所 提出 的 方法 在 估计 维吾尔 语文 本 与 潜在 文字 列 


究 (包括 词语 重组 和 同义词 替换 ) 文本 之 间 相 


包含 了 特定 数量 的 无 用 停止 词 与 有 用 词语 ， 如 


加 停止 词 


用 包含 9 个 维吾尔 语文 本 (L1~L9) 的 数据 集 来 进行 测试 ,文本 中 


以 度 的 性 能 ， 使 


图 6 所 示 。 


喇 2000 
EE 


是 
三 1500 
坚 


4 ls L6 L7 L8 L9 
测试 文本 


但 当 N=3 或 4 能 够 取得 较为 优越 的 结果 。 这 是 因为 N 较 小 时 ， 
获得 的 词 不 能 足够 表达 真实 含义 。 当 N 较 大 时 ,增加 了 近似 算 


阵 4 的 语义 维 数 ， 对 相似 度 度量 估计 具有 负面 影响 。 


于 
己 
对 
总 
祥 
己 SS 
-他 -精确 度 
0.7 一 米 -召回 率 二 
0.65. - 且 F-measure 值 
1 2 3 4 5 .46 
N-gram 中 NN 值 


图 8 本 文 方法 在 不 同 N 值 下 的 性 能 指标 
为 了 更 加 准确 地 展现 性 能 差异 ， 参 考 真实 相似 度 值 ， 统 计 
本 文 方法 30 次 实验 所 估计 的 成 对 文本 相似 度 度 与 真实 值 的 绝 
对 差 的 最 大 值 和 平均 值 ， 如 表 2 所 示 。 可 以 得 出 结论 : N-gram 


图 6 


于 相似 度 估计 的 9 个 文本 


为 了 构建 包含 重 寺 


有 组合 和 


定 的 数据 集中 前 5 个 文本 为 原 


文本 中 提取 的 。 第 7 个 文本 


同义词 玲 换 的 璋 窍 文本 ， 本 文 设 
牛 文本 ， 第 6 个 文本 是 从 第 3 个 
两 部 分 组 成 ， 一 部 分 来 自 于 第 3 


个 文本 ， 另 一 部 分 来 自 


于 第 4 个 文本 。 第 8 个 文本 是 第 7 个 文 


本 的 精确 副本 ,但 是 50% 的 词 被 更 改 为 其 同义词 。 最 后 一 个 文 
本 是 从 第 7 个 文本 中 生成 的 , 但 对 50% 的 语句 进行 了 重组 。 图 
7 显示 了 所 考虑 的 9 个 文本 的 实际 相似 度 关系 。 


了 


图 7 9 个 文本 的 实际 相似 度 
所 有 实验 在 Intel Core i7-4700 CPU， 主 频 2.4 GHz， 微 软 
Windows 8 系统 平台 上 ， 通过 MATLAB 编译 实现 本 文 算法 ， 


中 使 用 N=3 获得 的 结果 要 优 于 其 他 结果 。 
表 2 相似 度 估 计 值 与 真实 值 的 最 大 差 值 和 平均 差 值 
N-gram 值 最 大 | 差 | 值 平均 | 差 | 值 
N=1 28.74% 12.82% 
N=2 17.66% 3.32% 
N=3 12.27% 2.25% 
N=4 13.62% 2.57% 
N=5 21.72% 3.54% 
N=6 25.87% 4.71% 


另外 ， 随 着 N 值 的 增加 ， 本 文 方法 的 计算 时 间 也 会 增加 ， 
如 图 9 所 示 。 为 此 ， 在 综合 考虑 检测 性 能 和 检测 时 间 情 况 下 ， 
最 终 选 择 N=3。 
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图 9 本 文 方法 在 不 种 N 值 下 的 计算 时 间 
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3.3 性 能 比较 机 应 用 研究 , 2016, 33 (2): 375-377. (Zhang Chao, Chen Li, Li Qiong. 

将 本 文 提出 的 检测 方法 与 文献 [8] 提出 的 相似 性 检测 方法 Chinese text similarity algorithm based on PST_ LDA [J]. Application 
进行 比较 ， 其 中 本 文 方法 中 设置 N=3。 同 样 在 上 述 9 个 文本 中 Research of Computers, 2016, 33 (2): 375-377. ) 
进行 实验 ， 相 似 度 估计 和 检测 性 能 结果 如 表 3 所 示 。 [3] Barron-Cedeno A, Gupta P, Rosso P. Methods for cross-language plagiarism 

表 3 性 能 比较 结果 detection [J]. Knowledge-Based Systems, 2013, 50 (1): 211-217. 
方法 文献 [8] 方 法 本 文 方法 [4] 吐 尔 地 。 托 合 提 ,维尼 拉 。 木 沙 江 , 艾 斯 卡尔 。 艾 木 都 拉 . 基于 语义 串 抽 
| 、 | 差 | 的 最 大 值 16.63% 12.27% 取 及 主题 相似 度 度量 的 维吾尔 文 文本 分 类 [J]. 中 文 信息 学 报 , 2017, 31 
ee | 差 | 的 平均 值 2.58% 2.25% (4): 100-107. (Turdi Tohti, Winira Musajan, Askar Hamdulla. Semantic 
精确 度 92.8% 99.4% string-based topic similarity measuring approach for Uyghur text 
检测 性 能 召回 率 85.6% 88.6% classification [J]. Journal of Chinese Information Processing, 2017, 31 (4): 
F-measure 值 92.5% 95.5% 100-107. ) 

可 以 看 出 ， 本 文 方法 优 于 文献 [8] 方 法 ， 这 是 因为 提出 的 方 [5] Sindhu L, Idicula Sumam Mary. A plagiarism detection system for 
法 是 基于 自然 语言 处 理 ， 能 够 很 好 地 适合 维吾尔 语 这 种 复杂 语 malayalam text based documents with full and partial copy [J]. Procedia 
言 。 而 文献 [8] 方 法 在 估计 相似 度 时 包括 了 停止 词 ， 使 其 相似 度 Technology, 2016, 25 (4): 372-377. 
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